文本文档中,打入<联通>两个字为什么不显示???

来源:百度知道 编辑:UC知道 时间:2024/06/05 05:16:36
新建一个文本文档,输入<联通>两个字,保存,再打开之后发现显示的是"ͨ",谁知道是为什么啊?是不是因为中国联通得罪了微软之类的??

估计是新建文本建时 记事本内码 的一个Bug,只要输入 联通 时,加个空格在中间或旁边,就可以解决这个问题

小BUG,请保存为unicode格式可正常显示

打 联系 也会这样,不信你试试

这是记事本的编码问题,当文档中所有字符都在C0≤AA≤DF 80≤BB≤BF这个范围的时候,notepad都无法确认文档的格式,没有自动按照UTF-8格式来"Display"。"联通"就是C1 AA CD A8,刚好在上面的范围内,所以不能正常显示。
但是由于不够详细,笔者就这一问题又特地咨询了放飞技术网的高翅工程师,高工非常热心的给我们带来了更加详细的解释:

在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset)。

在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7 bits来表示一个字符,总共表示128个字符,其中包括了英文字母、数字、标点符号等常用字符。之后,又进行扩展,使用8 bits表示一个字符,可以表示256个字符,主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。

后来,由于各国语言的加入,ASCII已经不能满足信息交流的需要,因此,为了能够表示其它国家的文字,各国在ASCII的基础上制定了自己的字符集,这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集,它们正式的名称应该是MBCS(Multi-Byte Chactacter System,即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础,兼容ASCII 127,他们使用大于128的编码作为一个Leading Byte,紧跟在Leading Byte后的第二(甚至第三)个字符与Leading Byte一起作为实际的编码。这样的字符集有很多,我们常见的GB-2312就是其中之一。

例如在GB-2312字符集中,“联通”的编码为C1 AC CD A8,其中C1和CD就是Leading Byte。前127个编码为标准ASCII保留,例如“0”的编码是